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摘要 : [ 目的 /意义 ] 针对 现 有 图 书馆 数字 参考 咨询 人 机 对 话机 器 人 在 对 话 回复 内 容 方 面 的 局 限 , 提 出 一 种 
融合 人 物 画 像 的 对 话 生成 模型 ,使 其 回复 更 具 个 性 化 和 趣味 性 ,以 提升 图 书馆 智能 咨询 服务 效果 。 [方法 /过 
Te] 利用 人 机 对 话 技术 ,对 图 书馆 数字 参考 咨询 服务 中 的 用 户 和 问题 进行 自动 建 模 , 建 模 方 式 分 为 个 性 化 回复 
风格 建 模 和 特定 用 户 属 性 建 模 。 在 个 性 化 回复 风格 建 模 上 ,提出 一 种 基于 对 话 表 示 和 相关 性 回复 建 模 方法 ,该 
方法 在 学 习 到 对 话 相关 性 的 同时 ,利用 个 性 化 文本 生成 个 性 化 的 回复 ;在 用 户 个 人 属性 建 模 方面 ,基于 信息 抽 
取 技 术 生 成 用 户 的 人 物 画 像 。[ 结果 /结论 ] 实验 结果 表明 ,所 提出 的 个 性 化 回复 生成 模型 优 于 已 有 的 回复 生 
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数字 参考 咨询 服务 是 现代 图 书馆 信息 服务 工作 的 
-他 休 重 要 组 成 部 分 。 伴 随 着 人 工 智 能 和 社交 媒体 等 信 
息 丢 术 的 发 展 ,数字 参考 咨询 也 迎 来 了 新 的 挑战 和 发 
MEHE 。 

(9 纵 观 人 工 智能 行业 发 展 ,人 机 对 话 技术 在 研究 领 
域 和 工业 界 受 到 了 广泛 的 关注 。 在 研究 领域 中 ,人 机 
对 语 是 人 工 智能 领域 皇冠 上 的 明珠 一 -图 灵 测 试 ” 
的 一 种 实现 方式 ,也 是 人 工 智能 研究 的 终极 目标 。 在 
工业 界 ,Google , Facebook 、 苹 果 、 微 软 、 百 度 等 大 型 跨国 
企业 陆续 推出 了 具备 人 机 对 话 功 能 的 应 用 ,微软 更 是 
喊 出 了 “对 话 即 平台 ”的 口号 ,表明 了 人 机 对 话 在 商业 
上 的 重要 性 。 与 此 同时 ,以 API. ai, VIV. ai, WIT. ai 和 
KITT. ai 等 为 代表 的 一 大 批 以 人 机 对 话 关 键 技术 作为 
核心 技术 的 创业 公司 纷纷 涌现 ,也 加 快 了 人 机 对 话 技 
术 向 产品 转化 的 速度 。 因 此 ,可 以 看 出 目前 人 机 对 话 
技术 在 研究 和 应 用 方面 均 具 有 重要 的 价值 和 意义 。 

在 图 书馆 数字 参考 咨询 服务 中 ,能 否 将 人 机 对 话 


技术 应 用 到 现实 世界 中 的 某 种 载体 里 ,如 电子 终端 等 
产品 ,并 且 通 过 人 机 对 话 的 形式 ,与 用 户 在 真实 或 虚拟 
世界 里 进行 互动 呢 ? 目前 ,已 有 的 数字 参考 咨询 问答 
机 器 人 一 般 是 通过 检索 服务 提供 者 预定 义 的 FAQ 数 
据 库 方 式 与 用 户 进行 交互 ,使 得 整个 人 机 交互 过 程 显 
得 休 板 和 程式 化 ,也 使 数字 参考 咨询 问答 机 器 人 缺乏 
智能 化 .个 性 化 和 多 样 化 ,进而 影响 用 户 在 数字 参考 咨 
询 中 的 体验 。 

针对 上 述 问题 ,本文 利用 基于 深度 学 习 的 对 话 生 
成 技术 ,从 大 规模 背景 知识 中 自动 学 习 用 户 角 色 的 人 
物 属性 以 及 个 性 化 交互 方式 和 内 容 , 从 而 实现 能 够 自 
动 根据 用 户 输入 生成 相关 的 ,多样 的 和 个 性 化 的 回复 ， 
提高 问答 机 器 人 在 数字 参考 咨询 中 的 智能 程度 ,使 得 
人 机 对 话 系统 不 仅 能 够 在 数字 参考 咨询 中 完成 咨询 功 
能 ,而 且 还 具备 一 定 的 娱乐 性 ,从 而 提升 用 户 咨询 体 


验 。 


2 相关 工作 


根据 术语 在 线 (http://www. termonline. cn/index. 
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htm ,由 全 国 科学 技术 名 词 审定 委员 会 主办 的 术语 知识 
服务 平台 )2017 年 公布 的 定义 ,数字 参考 咨询 又 称 虚 
拟 参考 咨询 ,是 建立 在 网 络 基 础 上 ,不 受 地 域 \ 时 间 的 
限制 ,将 用 户 与 专家 和 科学 专业 知识 联系 起 来 的 问答 
式 咨 询 服务 。 随 着 网 络 和 移动 通信 技术 的 发 展 和 广泛 
应 用 ,用 户 对 图 书馆 数字 参考 咨询 服务 在 响应 和 完成 
时 间 ,答复 的 准确 度 满意 度 等 方面 提出 了 更 高 的 要 
求 。 图 书馆 参考 咨询 智能 问答 机 器 人 可 以 实现 7 x24 
小 时 的 实时 咨询 回复 ,能够 很 大 程度 上 节省 图 书馆 的 
AJ 物力。 但 是 ,通过 对 国内 31 所 省 级 公共 图 书馆 
的 调研 数据 显示 ,目前 开展 网 上 参考 咨询 服务 的 图 书 
馆 有 26 家 ,能 够 提供 网 页 实时 资讯 的 有 6 家 ,能 够 提 


供 机 器 人 咨询 的 仅 有 浙江 图 书馆 1 家 六 。 相 比 之 下 ， 
高 校 图 书馆 参考 咨询 智能 机 器 人 的 相关 研究 与 应 用 较 


P 主要 是 基于 开源 平台 进行 二 次 开发 ,如 清华 大 学 
LIE T TAKE 人 L. I. C.E. 开 发 的 实时 智能 聊 


XD AUCUNE" UT. Ex XoEELHBTGET BotPlat- 
form) 开 源 平 台 构 建 的 知 能 化 实时 咨询 机 器 人 "重庆 


次 理学 院 图 书馆 基于 AIMLBot 开源 软件 构建 的 实时 虚 
EB UHR AE PURA JB ECKE E] BUR AE TP A 
Jp API 接口 构建 的 图 书馆 智能 问答 系统 “等 。 现 
有 的 虚拟 咨询 机 器 中 人 可 以 通过 全 天 候 、 快 响应 的 服务 
DESSEN 度 上 提高 数字 参考 咨询 服务 效果 ,但 回 
复 俩 容 比 较 刻板 局 限 ,缺乏 对 话 的 乐趣 和 个 性 化 ,在 人 
tibiis H AE i D E REPED V RR PET o 

它 人 机 对 话 系统 中 ， 机 器 自动 回复 任务 旨 在 根据 用 
户 输入 的 消息 息 ,生成 语法 流畅 语义 相关 的 回复 ,因此 也 
fis Eel e HE Y O. Vinyals 和 A. Sordoni 等 将 回复 生成 
任务 抽象 为 一 个 序列 到 序列 的 学 习 问 题 ““" 。 在 此 基 
础 上 ,L. Shang 等 "引入 了 注意 力 机 制 ,并 进一步 提出 
了 一 种 混合 模型 。 然 而 这 类 模型 存在 倾向 于 生成 一 般 
性 通用 回复 的 问题 。L. Mou 等 ”将 关键 词 作为 外 部 知 
识 引 入 生成 过 程 以 提升 回复 内 容 的 多 样 性 。C. Xing 
A5 fg L. Mou TREE A 


推广 到 多 关键 词 。 此 外 ,I. V. Serban 等 "通过 在 生成 
过 程 中 引入 一 个 随机 的 隐 变 量 来 增加 回复 的 多 样 性 。 


T. Zhao 等 “引入 条 件 自 编码 器 模型 ,通过 其 中 的 隐 变 
量 的 概率 分 布 来 建 模 不 同 回复 的 分 布 。 随 着 回复 多 样 
性 的 研究 推进 ,回复 的 个 性 化 成 为 重要 的 需求 。 

个 性 化 回复 基于 人 物 画像 建 模 , 其 最 主要 的 关键 
技术 是 人 物 属性 和 实体 关系 的 抽取 。 早 期 的 实体 关系 
抽取 任务 来 自 于 美国 国家 标准 与 技术 研究 院 ( National 
Institute of Standards and Technology , NIST) 组织 召开 的 


自动 内 容 抽 取 测 评 会 议 ( Automatie Content Extraction, 
ACE)"”"。 在 此 评测 会 议 上 ,大 多 数 方法 是 通过 模 
式 匹 配 或 分 类 进行 信息 抽取 ,抽取 的 关系 由 ACE 明确 
定义 ,属于 限定 域 的 信息 抽取 。 随 着 互联 网 的 迅速 发 
展 ,限定 域 的 信息 抽取 已 不 能 满足 实际 的 需要 ,因此 ， 
M. Banko ”提出 了 开放 域 三 元 组 抽取 任务 。 在 开放 域 
这 息 抽取 工作 中 , 周 蓝 正 '” 分 别 采用 基于 序列 模式 挖 
掘 的 无 指导 方法 和 基于 特征 提取 的 有 指导 方法 ,实现 
了 对 中 文 音乐 领域 的 实体 关系 提取 。 其 中 ,基于 序列 
挖掘 的 无 指导 方法 是 借助 种 子 实体 关系 ,在 开放 域 检 
索 系 统 中 挖掘 序列 ,进而 发 现 新 的 实体 关系 ;基于 特征 
提取 的 方法 则 是 借助 字 词 .词性 .语义 角色 等 特征 进行 
着 息 抽取 。 刘 勇 杰 等 ”通过 分 析 实 体 关系 在 句法 依 
存 树 中 的 表述 方式 ,提出 了 一 种 融入 搜索 引擎 的 启发 
式 实体 关系 三 元 组 抽取 方法 。 通 过 使 用 句法 依存 树 构 
造 启发 式 模板 ,并 在 开放 域 检 索 系 统 中 验证 抽取 到 的 
实体 关系 是 否 成 立 。A. Fader 等 .构建 了 一 个 信息 抽 
取 系统 ReVerb, 其 性 能 相 比 其 他 公开 的 信息 抽取 系统 
有 显著 的 提升 。 该 系统 应 用 了 词性 约束 与 字 词 约束 ， 
在 开放 域 检索 系统 中 抽取 实体 及 其 属性 ,或 针对 特定 
属性 关键 词 进行 填空 ,用 于 获取 实体 关系 。 

尽管 已 有 的 对 话 生 成 模型 能 够 生成 相关 性 和 流畅 
性 较 好 的 回复 ,人 物 画像 的 相关 研究 在 过 去 也 得 到 了 
较为 长 足 的 发 展 和 进步 ,但 是 利用 人 物 画 像 来 建 模 机 
器 人 画像 ,从 而 用 于 生成 带 有 特定 个 性 化 特色 的 人 机 
对 话 系统 (或 聊天 机 器 人 ) ,仍然 鲜 有 涉猎 ,因此 ,本 研 
究 根 据 图 书馆 数字 参考 咨询 场景 中 人 机 对 话 的 特殊 
性 ,首次 提出 利用 人 物 画像 建 模 机 器 画像 ,构建 个 性 
化 .场景 化 的 人 机 对 话 模型 。 


3 ”数字 参考 咨询 中 的 人 机 对 话 模型 


3.1 ”对话 生成 模型 
大 规模 数据 驱动 方法 在 对 话 系统 中 扮演 着 重要 的 
角色 ,对 话 系统 训练 的 大 规模 语 料 通常 属于 成 对 语 料 ， 
即 数据 是 以 消息 — 回复 对 的 形式 出 现 的 ” ”i 。 然 而 ， 
这 种 成 对 形式 的 对 话语 料 在 现实 生活 中 较 难 收集 和 扩 
展 到 较 大 规模 。 相 反 , 非 成 对 形式 的 自由 文本 以 多 种 
形式 广泛 存在 ,但 受 限于 现 有 的 训练 方法 ,无 法 应 用 到 
对 话 系 统 的 训练 过 程 中 。 为 了 解决 上 述 问题 ,本 研究 
提出 一 种 可 以 结合 自由 文本 的 半 监 督 回复 生成 模型 。 
一 方面 ,大 规模 自由 文本 中 存在 着 更 为 丰富 的 语法 现 
象 ,可 以 提升 生成 回复 的 多 样 性 。 另 一 方面 ,还 可 以 通 
过 引入 带 有 特定 人 物语 言 风格 的 自由 文本 ,在 回复 生 
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成 中 生成 具有 该 人 物语 言 风格 的 回复 。 本 研究 将 回复 
生成 过 程 分 解 成 两 个 子 过 程 ,利用 多 任务 学 习 框 架 , 将 
这 两 个 子 过 程 建 模 成 两 个 任务 分 别 进行 学 习 。 值 得 注 
意 的 是 ,我 们 将 训练 过 程 中 的 标准 答案 回复 称 之 为 模 
型 学 习 的 目标 (简称 目标 ) ,而 将 测试 过 程 中 模型 给 出 
的 预测 回复 称 之 为 回复 。 具 体 的 模型 结构 见 图 1 ,在 
训练 的 过 程 (Training) 中 ,消息 ( Message ) 和 目标 (Tar- 
get) 分 别 经 过 自 编码 器 ( AutoEncoder ) 进行 编码 学 习 具 
体 的 表示 ,这 一 过 程 称 为 “表示 学 习 ” 过 程 ;通过 隐 伟 
语义 空间 (Latent Space) 学 习 消息 和 目标 之 间 的 语义 
相关 性 ,这 一 过 程 称 为 “回复 相关 性 学 习 ” 过 程 。 在 测 
试 阶段 (Test) 则 直接 进行 消息 和 回复 的 生成 测试 。 通 过 
训练 得 到 的 隐 含 语义 空间 的 参数 保留 至 测试 过 程 中 。 


epus 一 | 自 编码 器 上 解码 器 


C ' 
xs 自 编码 器 : 
© B 


回复 


Oa — ssen i—-9-9-3- 解码 器 
E 图 1 对 话 生成 模型 框架 


DI 表示 学 习 ”对 于 表示 学 习 任务 ,应 该 学 习 如 何 
次 声 句 话 表示 成 一 个 模型 的 内 部 表示 ( 向 量 形式 ) ,如 
何 乱 据 一 句 话 的 向 量 表示 重建 出 这 句 话 。 这 两 个 过 程 
可 渡 通 过 一 个 自 编 码 器 来 完成 。 具 体 的 ,考虑 到 后 绪 
任 凌 对 于 句子 表示 的 向 量 空间 连续 性 的 要 求 , 研 究 中 
使 用 了 变 分 自 编码 器 。 基 于 变 分 自 编码 器 的 架构 ， 
将 表示 句子 的 向 量 称 为 隐 变 量 ,其 所 在 的 空间 称 为 隐 
变量 空间 。 在 这 样 的 结构 下 ,一 旦 隐 变 量 空间 学 习 完 
成 ,消息 .模型 预测 的 回复 和 标准 答案 的 回复 就 可 以 分 
别 被 表示 成 空间 里 的 3 个 隐 变 量 , 即 消息 隐 变 量 =， i 
型 预测 回复 的 隐 变 量 z, 和 标准 答案 回复 的 隐 变 量 zo 
设计 表示 学 习 任 务 的 损失 函数 如 公式 (1) BR 
LzlogP(ylx) + KL(plq) 公式 (1) 
其 中 ,x 为 输入 ,y 为 输出 ,P 为 序列 到 序列 学 习 
(Seq2seq) 模 型 ,p 和 q 分 别 表示 隐 变 量 : 和 z, 的 概率 
分 布 ,而 z, 的 概率 分 布 又 是 由 zx 通过 隐 变 量 空间 预测 
出 来 的 ( 见 公式 (2) ) 。 直 观 上 来 说 ,本 研究 希望 通过 
计算 隐 变 量 空间 中 的 KL 距离 来 使 得 模型 预测 的 回复 
与 标准 答案 的 回复 尽 可 能 接近 。 
3.1.2 回复 相关 性 学 习 在 回复 相关 性 学 习 阶 段 , 主 


要 是 学 习 在 隐 变 量 空间 下 ,如 何 通过 消息 隐 变 量 z 预 
测 一 个 回复 隐 变 量 z, ,使 得 z, 解码 出 的 回复 与 标准 答 
案 在 定义 好 的 某 种 损失 函数 下 的 损失 尽 可 能 小 。 由 于 
消息 和 回复 已 经 由 隐 向 量 表示 ,因此 ,问题 可 以 进一步 
转换 成 如 何 学 习 消 息 向 量 到 回复 向 量 的 对 应 关系 。 

(1) 转 移 网 络 。 本 研究 使 用 一 个 转移 网 络 将 消息 
隐 变 量 z, 转换 为 回复 隐 变 量 z, ,具体 使 用 一 个 循环 神 
经 网 络 来 建 模 该 转移 过 程 。 

(2) 转 移 关 系 对 抗 训 练 。 由 于 回复 生成 的 评价 是 
一 个 开放 性 的 问题 ,即使 将 回复 与 标准 答案 均 映 射 到 
相同 的 隐 变 量 空 间 ,但 是 由 于 候选 回复 的 多 样 性 ,仍然 
很 难 定义 一 个 合理 的 损失 函数 用 于 计算 消息 隐 变 量 z 
与 回复 隐 变 量 > 的 距离 。 因 此 ,本 研究 采用 对 抗 训练 
的 方式 ,通过 引入 一 个 判别 器 来 计算 两 者 之 间 的 损失 。 
如 公式 (2) 和 公式 (3) 所 示 : 
Z, =fo(z,, Hn) 


Bui 
0^ = argminL (2, , 2,) 


公式 (2) 
公式 (3) 

其 中 ,A 表示 对 消息 进行 自 编码 时 的 隐 层 状态 向 
量 ,L;, 是 衡量 模型 生成 的 回复 与 标准 答案 回复 之 间 
向 量 距 离 的 损失 函数 ,通过 对 抗 学 习 进 行 建 模 。 公 式 
(2) 是 通过 对 消息 的 隐 层 状态 和 隐 变 量 建 模 预测 出 模 
型 生成 回复 的 隐 变 量 。 
3.2 人 物 画 像 建 模 

人 物 画 像 建 模 主 要 是 在 特定 背景 的 结构 化 、 半 结 
构 化 和 非 结 构 化 的 文档 中 抽取 出 特定 角色 的 属性 及 背 
景 以 及 与 其 他 角色 之 间 的 关系 。 如 参考 咨询 员 .参考 
咨询 员 与 咨询 者 (在 高 校 图 书馆 中 通常 为 学 生 或 教 
师 ) 之 间 的 关系 以 及 咨询 者 相互 之 间 的 关系 等 ,本 文采 
日 两 种 方案 对 人 物 画 像 进 行 建 模 , 一 种 方案 是 基于 模 
板 方式 ; 另 一 种 方案 是 基于 Bootstrapping HELAS 2J 
方法 。 
3.2.1 基于 模板 抽取 方法 

(1)Temp: 直 接 采 用 人 工 构 建 的 字 词 模板 ,如 通过 
观察 和 总 结 得 出 “A 是 负责 数据 库 资源 的 查询 员 ”"“B 
是 计算 机 学 院 的 学 科 馆 员 ”“C 咨询 过 了 关于 计算 机 专 
业 书 籍 的 馆藏 信息 "之 类 的 模板 。 

(2) ReVerb :基于 ReVerb 中 词性 正则 表达 式 抽取 
Jfik, ReVerb 词性 正则 表达 式 如 图 2 所 示 : 

VIVP|VW*P 
V = verb particle? adv? 


W = (noun | adj | adv | pron | det) 
P — (prep | particle | inf. marker) 


Cm 


E]2 Reverb HAEE 635 56 zs f] 7 
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(3)SRL: 基 于 语义 角色 标注 的 抽取 方法 。 在 语义 
角色 标注 的 语 料 上 ,构建 如 下 的 规则 

ATT-COO 规则 :首先 确定 名 中 一 个 命名 实体 B , 找 
到 一 条 指向 B 的 ATT 关系 弧 ,对 确定 的 结 点 反复 寻找 
ATT 关系 弧 确定 新 的 结 点 ,如 果 有 COO 关系 弧 , 则 进 
行 分 支 。 

SBV-VOB 规则 :寻找 3 PPI, A,B,C,D 为 4 个 
按照 先后 顺序 排列 的 项 ;A 有 一 条 指向 B 的 SBV 关系 
弧 , 且 为 命名 实体 ;C 有 一 条 指向 D 的 ATT 关系 弧 ;D 
有 一 条 指向 B 的 VOB 关系 弧 。 

3.2.2 基于 Bootstrapping 的 抽取 方法 基于 Boot- 
strapping 的 实体 关系 抽取 方法 ,是 一 种 利用 人 工 构建 
的 “种 子 " 进 行 模式 挖掘 的 方式 :首先 拟定 某 个 关系 或 
实体 的 一 系列 正确 实例 , 即 种 子 ,然后 ,在 历史 参考 次 
询 邓 话 数据 中 检索 包含 种 子 的 文本 内 容 ,将 文本 内 容 
经 过 合适 的 处 理 , 评 估 其 可 靠 度 , 整 理 成 一 个 实体 或 关 
系 稳 板 ,将 关系 模板 应 用 于 检索 系统 中 ,再 到 参考 咨询 
对 潭 数据 中 进行 搜索 ,以 获得 更 多 的 种 子 ,重复 上 述 过 
程 直到 无 法 再 发 现 新 的 模式 。 

GO 融合 人 物 画像 的 对 话 生成 模型 

CJ 如 何在 已 有 的 对 话 生成 模型 中 融入 人 物 画 像 信 
马队 而 生成 包含 用 户 属性 信息 的 自然 语言 对 话 回复 
是 基于 人 物 画 像 的 对 话 生成 模型 研究 中 的 关键 问题 ， 
本 研究 提出 一 种 基于 位 置 标记 的 对 话 生成 模型 ,在 基 
所 禄 经 网 络 的 端 到 端的 对 话 生成 模型 中 ,融入 人 物 面 


像 信息 。 模 型 框架 如 图 3 所 示 ; 
e User Profile 
E, R E 
E R E 


R em Yt 
Q 


Xı X3 X4 X 


3 基于 人 物 画 像 的 对 话 生成 模型 框架 


图 3 中 ,X,(i=1,2,…,T) 表示 第 i 个 输入 词 的 向 
BEER yG =1,2,…,t) 表 示 第 i 个 预测 的 词 ,h(i = 
1,2,…,T) 表示 第 i 个 编码 的 隐 层 状态 ,s,(i =1,2,…， 
O 表示 第 i 个 解码 的 隐 层 状态 ,E 表示 人 物 画像 中 的 实 
体 ,R 表示 人 物 画像 中 实体 之 间 的 关系 ,人 物 画像 部 分 
的 三 元 组 以 隐 式 表示 的 形式 参与 到 对 话 生成 的 解码 过 
程 中 。 在 每 一 个 解码 过 程 中 ,对 话 生 成 模型 判断 当前 


状态 下 是 否 需 要 引入 人 物 画 像 信 息 , 从 而 决定 是 否 引 
入 人 物 画 像 隐 式 表示 作为 解码 的 输入 。 在 输入 建 模 的 
过 程 中 采用 双向 GRU 作为 编码 絮 的 RNN 模型 。 


4 ”实验 结果 及 分 析 


为 了 验证 所 提出 方法 的 有 效 性 ,本 研究 设置 了 对 
话 生 成 .人 物 画 像 以 及 基于 人 物 画 像 的 对 话 生 成 三 个 
方面 的 实验 。 
4.1 对话 生成 实验 
本 研究 所 提出 的 对 话 生 成 模型 是 一 种 领域 无 关 的 
通用 模型 ,模型 结构 稳定 ,适用 于 不 同 的 数据 集 , 并 且 
在 通用 数据 集 ( 如 文中 的 大 规模 微 博 和 评论 数据 集 ) 
和 特定 领域 数据 集 ( 图 书馆 数字 参考 咨询 对 话 数据 
集 ) 上 ,能够 进行 多 阶段 递 进 式 训练 ,因此 模型 本 身 的 
训练 是 对 数据 不 敏感 的 。 实 验 采用 L. Shang 等 发布 
的 大 规模 微 博 及 评论 数据 作为 对 话 生成 的 实验 数据 
集 ,该 数据 集 的 具体 统计 情况 如 表 1 所 示 。 

表 1 对 话 生 成 实验 数据 集 统计 


数据 类 型 输入 数 ( 句 ) 回复 数 ( 句 ) 
训练 数据 1 对 1 1 000 000 1 000 000 
测试 数据 1 对 多 1 000 42 422 


本 研究 选取 基线 方法 为 序列 到 序列 模型 
(Seq2Seq) 和 条 件 自 编码 器 模型 (CVAE)” 。 本 研究 
的 方法 的 第 一 个 实验 设置 为 使 用 和 基线 方法 相同 的 成 
对 语 料 。 第 二 个 实验 设置 为 在 成 对 语 料 的 基础 上 引入 
个 性 化 文本 。4 个 方法 的 对 比 实验 见 表 2。 

X2 对 话 生成 实验 结果 


模型 Avg Ext Gre Distinct — 1 Distinct - 2 
Seq2Seq 0.494 0.354 0.452 0. 002 9 0.017 0 
CVAE 0.527 0.343 0.469 0. 006 2 0.035 1 
本 文 模型 0.534 0.376 0.518 0.0110 0.073 6 
Mein 0.543 0.377 0.513 0.012 7 0.092 6 


在 表 2 中 ,Avg Ext, Gre 分 别 表 示 Embedding 相似 
度 计算 中 的 平均 值 .单一 维度 极 值 和 向 量 极 值 , 这 3 个 
指标 的 详细 计算 方式 见 文献 [11]。 这 3 个 指标 越 高 则 
表示 生成 的 回复 与 标准 答案 的 语义 相似 度 越 高 。Dis- 
tinet -1 和 Distinct -2 为 衡量 生成 对 话 中 unigram 和 
bigram 多 样 性 的 指标 ,这 两 个 指标 越 高 , 则 表示 生成 的 
回复 越 具 备 人 物 的 个 性 化 说 话 风格 。 由 表 2 可 以 看 
出 ,本 研究 提出 的 两 种 实验 设置 在 5 种 指标 上 Avg、 
Ext, Gre, Distinct - 1 和 Distinct - 2 均 优 于 基线 方法 
Seq2Seq 和 CVAE ,说 明 本 文 的 方法 是 有 效 的 。 
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4.2 人物 画 像 结 果 
本 研究 采用 小 说 数据 集 进行 人 物 画 像 建 模 ,该 数 
据 集 的 具体 统计 信息 如 表 3 所 示 : 
RI 人 物 画 像 实验 数据 集 统计 
文本 段 数 主要 人 物 数 
2 475 36 


字符 数 
229 315 


本 研究 采用 语言 技术 平台 (LIP, 网 址 为 http:// 
ltp. ai/ ) 对 原始 文本 进行 分 词 .词性 标注 、 命 名 实体 识 
别 .句法 分 析 以 及 语义 角色 标注 ,以 提取 供 信息 抽取 所 
用 的 特征 。 实 验 结果 如 表 4 所 示 : 
表 4 ”人物 画像 关系 抽取 实验 结果 


ReVerb 


方法 
准确 率 


三 由 表 4 可 以 看 出 ,使 用 Boostrapping 的 方法 超过 了 
俩 十 模板 ( Temp) .ReVerb 正则 表达 式 和 基于 语义 角色 
标 涵 (SRL) 方 法 的 结果 ,其 中 SRL 的 结果 低 于 ReVerb 
的 绑 果 ,其 主要 原因 是 SRL 需要 命名 实体 识别 ,而 命名 
实体 识别 的 错误 率 影响 了 基于 SRL 方法 对 人 物 间 关 
系 的 抽取 结果 。 另 外 ,在 分 析 产 生 错误 的 情况 时 ,经 过 
PRR, 主要 错误 来 自 于 “实体 - 关系 -实体 "在 上 
SGH HE BESERK ,导致 其 抽取 遗漏 或 抽取 错误 。 

AN 基于 人 物 画像 的 对 话 生成 结果 

污 基 于 人 物 画 像 的 对 话 生成 实验 的 参数 设置 见 表 5。 

<< 在 实验 中 ,完成 一 轮训 练 大 概 需 要 10 分 钟 ,使 用 
Fafly Stopping 技术 后 ef —Hetk 5 轮 左右 停止 。 


Temp SRL Bootstrapping 


0.435 0. 568 0.539 0.641 


X5 基于 任务 画像 的 对 话 生成 实验 参数 设置 
Vocab_size 词 表 大 小 30000 
Max seq len 序列 最 大 长 度 15 
mn, layer RNN 层 数 2 
Embedding dim 词 向 量 维度 200 
Dense_dim MLP 隐 层 维度 256 
Dropout ERZ 0.3 
Batch_size 批 大 小 64 
Epochs WAKRA 10 
Beam_size 束 大 小 10 
使 用 验证 集 上 准确 率 最 高 的 模型 作为 最 终 的 模型 来 预 


测 测试 集 上 的 结果 ,基于 人 物 画 像 的 解码 选择 实验 结 
果 见 表 6。 其 中 ,评价 指标 采用 准确 率 、 召 回 率 和 工 
值 。 这 里 准确 率 、 召 回 率 和 下 值 的 评价 对 象 是 每 个 解 
码 过 程 中 ,是 否 采用 人 物 画 像 信息 作为 隐 式 输入 ,因此 
是 一 个 二 分 类 的 问题 。 

表 6 基于 人 物 画 像 的 解码 选择 实验 结果 


BÝR 分 值 
准确 率 1.0 
召回 率 0. 997 
F (& 0. 998 
由 表 6 可 知 ,采用 对 话 生 成 模型 能 够 非常 准确 地 


判断 解码 的 当前 状态 下 ,是 否 应 该 引入 人 物 画 像 信 息 。 
除 此 之 外 ,本 文 继续 验证 朋 入 人 物 画 像 信 息 的 对 话 生 
成 效果 ,如 表 7 Bron : 


- R7 基于 人 物 画 像 的 对 话 生成 实验 结果 


) 输入 标准 答案 回复 模型 预测 回复 三 元 组 
嵌入 合理 Ji - 吉 格 斯 的 父亲 是 英格兰 人 么 呵呵 ,不 是 英国 人 。 是 威尔士 的 是 威尔士 人 CERI, EE, 威尔士 ) 
和 游记 是 谁 写 的 ? 西游 记 是 明代 吴承恩 写 的 吴承恩 写 的 (CCS, ERU, REA ) 
2010 年 南非 世界 杯 冠军 应 该 是 ? E... 当然 是 巴西 了 (2010 年 南非 世界 杯 " “国籍 “巴西 ) 
嵌入 不 合理 江南 (style) 是 谁 唱 的 ? psy, SA, WE EIK 韩国 唱 的 (“style” ,“ 地 区 ' ,韩国 ) 
杨 窒 和 胡 歌 还 会 拍 仙剑 四 吗 ? 仙剑 4 演员 换 了 会 的 演员 CUBES WAL, OT) 


从 表 7 中 可 以 看 出 ,人 物 画像 三 元 组 基本 都 被 从 
入 到 了 回复 名 中, 并且 大 部 分 做 入 的 是 比较 合理 的 ,不 
过 也 会 有 一 些 不 太 适 合 的 例子 ,如 生成 的 动词 不 合适 
RAAE, 


本 研究 将 人 机 对 话 技术 应 用 于 图 书馆 数字 参考 咨 
询 中 ,通过 对 数字 参考 咨询 用 户 的 个 性 化 回复 方式 和 
角色 属性 建 模 ,实现 了 人 机 对 话 技 术 在 数字 参考 咨询 
用 户 中 的 角色 模拟 ,提升 了 数字 参考 咨询 问答 的 智能 


化 程度 。 实 验 结果 表明 本 研究 提出 的 个 性 化 回复 生成 

模型 优 于 已 有 最 好 的 回复 生成 模型 。 在 今后 的 工作 

中 ,将 继续 研究 如 何 将 个 性 化 回复 过 程 与 特定 的 人 物 

画像 信息 高 效 结合 ,进一步 提升 对 数字 参考 咨询 用 户 

的 角色 模拟 能 
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Abstract. [ Purpose/significance] In view of the limits of response generation of conversational robots in the exist- 
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ters, making the reply more personalized and interesting, in order to improve the effect of library intelligent reference serv- 
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ice. [ Method/process] We automatically model the specific roles and questions in digital reference service of library in 
two separate ways. First is to model the personalized responding style of specific role and second is to model the aspects of 
the role. In modeling personalized responding style, we propose an utterance representation and responding relevance - 
based approach to simultaneously learn the relevance of dialogue and utilize the personalized text to generate personalized 
responses. In modeling aspects of a specific role, we establish human profile by employing the information extraction tech- 
niques. | Result/conclusion | The experimental results show that, the personalized reply generation model proposed by us 
is superior to the best one, and the F score of user profiling recognition is 99. 8% . 
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